1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
Answer:
程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。
修改办法:
修改2个文件。
/etc/security/limits.conf
vi /etc/security/limits.conf
加上:
* soft nofile 102400
* hard nofile 409600
?
$cd /etc/pam.d/
$sudo vi login
添加session ? ?required ? ? /lib/security/pam_limits.so
?
2:Too many fetch-failures
Answer:
出现这个问题主要是结点间的连通不够全面。
1) 检查 、/etc/hosts
? ?要求本机ip 对应 服务器名
? ?要求要包含所有的服务器ip + 服务器名
2) 检查 .ssh/authorized_keys
? ?要求包含所有服务器(包括其自身)的public key
?
3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0%?
Answer:
结合第二点,然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000?
?
4:能够启动datanode,但无法访问,也无法结束的错误
在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
?
5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了,没有连接上。
?
6:java.lang.OutOfMemoryError: Java heap space
出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
解决办法:
检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
检查mapred.reduce.parallel.copies是否设置合适。
?
8:
系统根目录下的/tmp文件夹是不可以删除的
否则bin/hadoop jps
会出现异常:
Exception in thread "main" java.lang.NullPointerException ?at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
? ? ? ? at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
? ? ? ? at sun.tools.jps.Jps.main(Jps.java:45)
同时
bin/hive
Unable to create log directory /tmp/hadoopuser
?
2:Too many fetch-failures
Answer:
出现这个问题主要是结点间的连通不够全面。
1) 检查 、/etc/hosts
? ?要求本机ip 对应 服务器名
? ?要求要包含所有的服务器ip + 服务器名
2) 检查 .ssh/authorized_keys
? ?要求包含所有服务器(包括其自身)的public key
?
3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0%?
Answer:
结合第二点,然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000?
?
4:能够启动datanode,但无法访问,也无法结束的错误
在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
?
5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了,没有连接上。
?
6:java.lang.OutOfMemoryError: Java heap space
出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
解决办法:
检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
检查mapred.reduce.parallel.copies是否设置合适。
?
8:
系统根目录下的/tmp文件夹是不可以删除的
否则bin/hadoop jps
会出现异常:
Exception in thread "main" java.lang.NullPointerException ?at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
? ? ? ? at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
? ? ? ? at sun.tools.jps.Jps.main(Jps.java:45)
同时
bin/hive
Unable to create log directory /tmp/hadoopuser
?
2:Too many fetch-failures
Answer:
出现这个问题主要是结点间的连通不够全面。
1) 检查 、/etc/hosts
? ?要求本机ip 对应 服务器名
? ?要求要包含所有的服务器ip + 服务器名
2) 检查 .ssh/authorized_keys
? ?要求包含所有服务器(包括其自身)的public key
?
3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0%?
Answer:
结合第二点,然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000?
?
4:能够启动datanode,但无法访问,也无法结束的错误
在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
?
5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了,没有连接上。
?
6:java.lang.OutOfMemoryError: Java heap space
出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
解决办法:
检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
检查mapred.reduce.parallel.copies是否设置合适。
?
8:
系统根目录下的/tmp文件夹是不可以删除的
(jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system.?
)
否则bin/hadoop jps
会出现异常:
Exception in thread "main" java.lang.NullPointerException ?at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
? ? ? ? at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
? ? ? ? at sun.tools.jps.Jps.main(Jps.java:45)
同时
bin/hive
Unable to create log directory /tmp/hadoopuser
?
?
hadoop java.io.ioexception:cannot open filename /user/...
在eclipse里面写程序运行时,出现了这样的错误,hadoop java.io.ioexception:cannot open filename /user/...
?
弄了半天,还查看了日志文件,可能是1)输入文件名写错了2)把hadoop.temp.dir下全删了,datanode的也是,然后重新格式化重启hadoop3)在安全模式,等待自动停止或手动停止安全模式
?
?
?
?
10/10/25 16:45:39 INFO mapred.JobClient: ?map 92% reduce 30%
10/10/25 16:45:44 INFO mapred.JobClient: Task Id : attempt_201010251638_0003_m_000013_1, Status : FAILED
java.io.IOException: Cannot open filename /user/eryk/input/conf
?
额,发现是一个命令打的有问题
错误的命令:
eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf/ input
包含的内容:
eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
drwxr-xr-x ? - eryk supergroup ? ? ? ? ?0 2010-10-25 16:49 /user/eryk/input
-rw-r--r-- ? 1 eryk supergroup ? ? ? 3936 2010-10-25 16:48 /user/eryk/input/capacity-scheduler.xml
drwxr-xr-x ? - eryk supergroup ? ? ? ? ?0 2010-10-25 16:49 /user/eryk/input/conf
-rw-r--r-- ? 1 eryk supergroup ? ? ? 3936 2010-10-25 16:49 /user/eryk/input/conf/capacity-scheduler.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?535 2010-10-25 16:49 /user/eryk/input/conf/configuration.xsl
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?388 2010-10-25 16:49 /user/eryk/input/conf/core-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2360 2010-10-25 16:49 /user/eryk/input/conf/hadoop-env.sh
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1245 2010-10-25 16:49 /user/eryk/input/conf/hadoop-metrics.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? 4190 2010-10-25 16:49 /user/eryk/input/conf/hadoop-policy.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?258 2010-10-25 16:49 /user/eryk/input/conf/hdfs-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2815 2010-10-25 16:49 /user/eryk/input/conf/log4j.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?274 2010-10-25 16:49 /user/eryk/input/conf/mapred-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:49 /user/eryk/input/conf/masters
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:49 /user/eryk/input/conf/slaves
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1243 2010-10-25 16:49 /user/eryk/input/conf/ssl-client.xml.example
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1195 2010-10-25 16:49 /user/eryk/input/conf/ssl-server.xml.example
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?535 2010-10-25 16:48 /user/eryk/input/configuration.xsl
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?388 2010-10-25 16:48 /user/eryk/input/core-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2360 2010-10-25 16:48 /user/eryk/input/hadoop-env.sh
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1245 2010-10-25 16:48 /user/eryk/input/hadoop-metrics.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? 4190 2010-10-25 16:48 /user/eryk/input/hadoop-policy.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?258 2010-10-25 16:48 /user/eryk/input/hdfs-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2815 2010-10-25 16:48 /user/eryk/input/log4j.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?274 2010-10-25 16:48 /user/eryk/input/mapred-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:48 /user/eryk/input/masters
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:48 /user/eryk/input/slaves
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1243 2010-10-25 16:48 /user/eryk/input/ssl-client.xml.example
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1195 2010-10-25 16:48 /user/eryk/input/ssl-server.xml.example
?
发现里面的内容重复了一遍
?
修改后的命令:
eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf input
只是去掉了conf后面的"/"?
里面的内容:
eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
drwxr-xr-x ? - eryk supergroup ? ? ? ? ?0 2010-10-25 16:49 /user/eryk/input
-rw-r--r-- ? 1 eryk supergroup ? ? ? 3936 2010-10-25 16:49 /user/eryk/input/capacity-scheduler.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?535 2010-10-25 16:49 /user/eryk/input/configuration.xsl
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?388 2010-10-25 16:49 /user/eryk/input/core-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2360 2010-10-25 16:49 /user/eryk/input/hadoop-env.sh
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1245 2010-10-25 16:49 /user/eryk/input/hadoop-metrics.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? 4190 2010-10-25 16:49 /user/eryk/input/hadoop-policy.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?258 2010-10-25 16:49 /user/eryk/input/hdfs-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? 2815 2010-10-25 16:49 /user/eryk/input/log4j.properties
-rw-r--r-- ? 1 eryk supergroup ? ? ? ?274 2010-10-25 16:49 /user/eryk/input/mapred-site.xml
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:49 /user/eryk/input/masters
-rw-r--r-- ? 1 eryk supergroup ? ? ? ? 10 2010-10-25 16:49 /user/eryk/input/slaves
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1243 2010-10-25 16:49 /user/eryk/input/ssl-client.xml.example
-rw-r--r-- ? 1 eryk supergroup ? ? ? 1195 2010-10-25 16:49 /user/eryk/input/ssl-server.xml.example
?
Ubuntu 12.04单机版环境中搭建hadoop详细教程,在Ubuntu下创建hadoop用户组和用,创建hadoop用户。
在mac os上安装hadoop的文章不多,本文安装环境的操作系统是 MAC OS X 10.7 Lion,共分7步,注意第三个配置在OS X上最好进行配置,否则会报错“Unable to load realm info from SCDynamicStore”。
Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器,solr.commit();这个方法在前面一篇文章中解释有些偏差,solr的整个事务都是在solr服务器端的,这跟以前的的事务有所
、默认项目名称为MapReduceTools,然后在项目MapReduceTools中新建lib目录,先将hadoop下的hadoop-core-1.0.4.jar重命名为hadoop.core.jar,并把hadoop.core.jar、及其lib目录下的commons-cli-1.2.jar、commons-lang-2.4.jar、commons-configuration-1.6.jar、jackson-m
SAP特别设立了一个“大数据”合作伙伴理事会。该理事会致力于进行合作创新,研发基于SAP实时数据平台和Hadoop的新产品解决方案,探索新应用和架构
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。